0%

(CVPR 2017) Image-to-image translation with conditional adversarial networks

Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.

本篇论文提出conditionnal GAN (supervised)结构

  • 学习input image到output image之间的映射。
  • 学习特定的loss function用于训练映射,即单独使用L1 loss (或L2 loss)会产生blur现象,而再此基础上进一步使用adversarial loss能够学习到适合特定数据集的loss function, 从而sharpen生成的图像 (判别器D能够判断blurry image为fake)。
    因此,针对不同任务 (Figure 1),该方法具有通用性


1. Contribution


  • 针对不同任务,cGAN具有通用性。
  • Achieve good result, 并分析cGAN结构中的一些重要部分

2. Relative Work


2.1. Loss类型

  • Structured loss 每个像素点独立考虑. per-pixel classification loss, regression.
  • Unstructured loss penalize the joint configuration of the output, 如conditional random fields. cGAN的unstructured loss是学习到的。

2.2. cGAN

  • 前人也apply GANs in conditional seting, 但是针对特定应用的,而本论文的cGAN提出的是通用框架
  • 本论文的cGAN使用到了U-Net和PatchGAN.

3. Objective


  • GAN
    • z->G->y
    • y->D->true or fake


  • cGAN (Figure 2)
    • {x, z}->G->y
    • {x, y}->D->true or fake



  • 使用L2会产生更严重的blur.


  • 最终的目标函数


  • 没有噪声z的网络会产生一个特定的输出,无法match any distribution, 因此cGAN加入噪声z,但在本篇论文实验中发现,G能够学习到如何ignore 噪声,从而在模型的test阶段也使用dropout产生noise.

4. Network architectures


4.1. Skip connection of G

  • 在auto-encoder结构中,input的所有信息会在所有layers传输。为了避免这种方法,在AE的基础上添加skip connection, 即U-Net (Figure 3).


4.2. Markovian D (PatchGAN)

  • L1 loss和L2 loss能够capture low frequencies, 因此需要约束D能够capture high frequency structure,即PatchGAN (N X N patches). D effectively models the image as a Markov random field.

4.3. Optimization and inference

  • test阶段,使用dropout, BN使用 the statistics of the test batch, rather than aggregated statistics of the training batch.
  • instance normalization在图像生成任务上很有效。(batch size为1,使用the statistics of the test batch)

5. Experiments


  • L1产生blur.
  • cGAN sharp imaged,但是存在artifacts.


  • (Table 1) cGAN优于GAN,加上L1 loss后,cGAN也相对较优。


  • Colorfulness
    当不确定edge的位置时,L1会产生bluraverrage ( L1 will be minimized by choosing the median of of the conditional probability density function over possible colors.) 从而导致narrower distribution than the ground truth (Figure 7).


  • Analysis of the G (Figure5)


  • Analysis of the D (Figure 6, Table 2)
    • Pixel GAN output 1x1 of D.
    • Image GAN output 256x256(full image size) D.
    • Patch GAN output 70x70(在本实验中) D.
    • Fully-convolutional translation. Patch GAN由于不包含FC层,D和G都可应用与任何大小的图片(Figure 8)中的G在train阶段使用256x256图片,在test阶段使用512x512图片。


  • Perceptual validation


  • Semantic segmentation
    GAN一般用于图像生成,本论文尝试将cGAN用于做segmentation任务,但最终效果并不好(Figure 10, Table 5)从实验结果可以看出, reconstruction losses like L1 are mostly sufficient.


  • Semantic labels↔photo
    Cityscapes dataset


  • Architectural labels→photo
    CMP Facades dataset


  • Map↔aerial photo
    Google Maps


  • BW→color photos


  • Edges→photonary
  • Sketch→photo


  • Day→night


  • Failure case